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УДК 004.65 
НГО ТХАНЬ ХУНГ 


МЕТОД ВЕРТИКАЛЬНОЙ КЛАСТЕРИЗАЦИИ ОТНОШЕНИЙ РЕ- 
ЛЯЦИОННЫХ БАЗ ДАННЫХ 


В статье представлена целевая функция для вертикальной кластеризации отноше- 
ний в системах баз данных, построенная на основе нового оценочного критерия - 
вероятности кэш-попадания. Испытание полученной оценочной формулы с помо- 
щью программного моделирования показывает ее высокую точность. Кроме того, 
описан эвристический алгоритм, аппроксимирующий решение поиска наилучшей 
схемы кластеризации. 

Ключевые слова: вертикальная кластеризация отношений, целевая функция, 
оценочный критерий, вероятность кэш-попадания, эвристический алгоритм. 


Введение. Под вертикальной кластеризацией некоторого отношения мы 
понимаем декомпозицию без потерь его на два или более отношений, кото- 
рые содержат непересекающиеся, за исключением ключевых атрибутов, 
подмножества атрибутов исходного отношения. В случае, если некоторое 
подмножество атрибутов чаше используются в запросах, чем подмноже- 
ство остальных атрибутов, то эта техника может в среднем уменьшить 
объем данных, которые должны быть обработаны при заданном множестве 
запросов. В результате кластеризация приводит к повышению производи- 
тельности кэш-системы в отдельности и всей системы в целом. 

Как указано в [1], многие алгоритмы кластеризации были разрабо- 
таны на основе статистической и образной классификации и анализа. Они 
группируют данные, используя различные критерии. Наиболее часто ис- 
пользуемым критерием является квадратическая ошибка. Недостаток этих 
алгоритмов заключается в их трудоемкости и малоэффективности. Кроме 
того, их оценочные критерии не связаны ни с каким показателем систем- 
ного исполнения, что вызывает некоторое недоверие к полученному ре- 
зультату. В [2] авторы разработали комплексный метод, в котором сначала 
выбираются потенциальные схемы кластеризации (варианты декомпозиции 
отношения). Затем эти схемы анализируются устройством оптимизации, по- 
строенным в данной системе управления базами данных (СУБД). После 
чего выбирается наилучшая схема для проведения кластеризации. Этот ме- 
тод представляет большой интерес, но он слишком сложен для реализа- 
ции. Кроме того, реализация устройства оптимизации существенно зависит 
от текущей настройки СУБД и от самого алгоритма оптимизации. 
Постановка задачи. Принимая во внимание то, что существует тесная 
связь между кластеризацией и производительностью кэш-системы, необхо- 
димо сформулировать оценочный критерий для вертикальной кластериза- 
ции отношений вероятности кэш-попадания и разработать эффективный 
алгоритм поиска оптимальной схемы декомпозиции по этому критерию. Как 
и в большинстве алгоритмов в этой области, рассмотренных в [1], в каче- 
стве входных данных принимается матрица вероятностей использования 
атрибутов (АЦИЬШе Узаде Мах). Дополнительными входными данными 
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являются длины атрибутов (в байтах). Как и в [2], в данной работе мы бу- 
дем считать, что число проекций декомпозиции равно двум, и обе они рас- 
положены в одной и той же табличной области. 

Спецификации кэш-системы и системы баз данных. Рассматриваем 
некоторую базу данных (БД), отношения которой уже находятся в 5-й фор- 
ме нормализации (5НФ) [3]. Пусть А - некоторое отношение, А - множе- 
ство его атрибутов, К А - единственный потенциальный ключ, который 
является первичным ключом. Пусть А\ К и, следовательно, отноше- 
ние не является полностью ключевым. 

Допустим, что каждый запрос использует подмножество атрибутов 
некоторого кортежа, определяемого его номер в таблице соответствующе- 
го отношения. Это означает, что запрос — последовательность трех опера- 
ций: выбор отношения, выбор подмножества атрибутов и выбор кортежа. 


Поэтому запрос может быть определен как тройка (А,Л 2], где В - 


некоторое отношение, Д - подмножество запрошенных атрибутов, Ш - 
номер кортежа. Допустим, что выбор кортежей не зависит от выбора отно- 
шения, от выбора подмножества атрибутов и подчиняется равномерному 
закону. Пусть имеется О’ различных запросов к базе данных. Статистиче- 
ская информация о вероятностях их выполнения описывается значениями 


Р›Р>›..-›Ро, 
где р, - вероятность вызова запроса 4, ; 
А+ Р.+...+ Рр=1 0 р ТЕГ О. 
Относительно рассматриваемого отношения вероятности использо- 
вания атрибутов описаны в табл.1, где величина М, принимает значение 
р,, если запрос 4; требует атрибут 4, , и ноль, в противном случае. 


Таблица 1 
Матрица вероятностей использования атрибутов 


Атрибуты 


Запросы 





Пусть размер кэш-памяти для данного отношения ограничен дли- 
ной / байтов. Запись и чтение из кэша выполняются по кортежам. Кортеж 
загружается в кэш целиком, если, по крайней мере, один из его атрибутов 
востребован. В начале работы кэш-память пуста. Во время работы она за- 
полняется кортежами. Для текущего запроса, если копия требуемого корте- 
жа присутствует в кэше, тогда обращение к внешней памяти не происхо- 
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дит. В противном случае кортеж извлекается с диска, и его копия размеща- 
ется в часть кэш-памяти, выделенная для данного отношения (если кэш-па- 
мять не выделяется для данного отношения, то ее кортежи не будут кэши- 
роваться вообще). В первом случае, мы говорим, что было кэш-попадание, 
а во втором — кэш-промах. После того как кэш-память заполняется, новый 
кортеж должен вытеснить один из имеющихся в нем кортежей. Так как пе- 
риод, пока кэш-память не заполнена, является переходным, то целевую 
функцию построим без учета этого периода. Будем считать, что стратегия 
замены, реализуемая в данной СУБД, является рандомизацией, т.е. выбор 
позиции, где хранится замещаемый при очередном промахе кортеж, подчи- 
няется равномерному закону распределения вероятностей. 

Описанные предположения сделаны в результате дедуктивного 
анализа литературы [1], [2], [31, [4]. Заметим, что эти предположения, за 
исключением сведения о вероятностях использования атрибутов, сформу- 
лированы только с целью математических выводов и испытания достовер- 
ности предполагаемого оценочного критерия, а не для требования к обла- 
сти его применения. 

Метод реализации вертикальной кластеризации отношений. 
Рассмотрим вертикальную кластеризацию отношения А на два отношения 


К, и К, . Обозначим множества атрибутов этих отношений А, 4, 4, со- 


ответственно. Кластеризация реализуется так, что верны следующие соот- 
ношения: 


А = 4 А, А,= А К, |4] > К]. (1) 
Используя метод имитации вертикальной кластеризации, создадим 
для отношений А; и А, постоянные таблицы 1, и Т, соответственно. При 


этом номера кортежей таблицы Т сохраняются для соответствующих корте- 
жей подтаблиц Т‚, Т2. Запросы, обращающиеся к исходному отношению А, 


будут переписаны, чтобы реализовать обращения к отношениям А, и К.. 
Если допустить, что любой запрос содержит, по крайней мере, один из не- 
ключевых атрибутов, тогда некоторый исходный запрос (К,Л 2] заме- 
няется только по одному из трех вариантов: 

1) одним запросом к отношению А, (№,4,2), если все атри- 


буты исходного запроса присутствуют в А\, т.е. (1 А); 

2) одним запросом к отношению А, (К,,4 2), если все атри- 
буты исходного запроса присутствуют в 45 , т.е. [4 4); 

3) двумя запросами (Л АР) и [К,4 [А,\К) МР] 


одновременно в тех случаях, когда не ключевые атрибуты под- 
множества „/ частично присутствуют ив А, ив 4, те. 


(4 4) } (4 4) К. 
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Кэш-память, отводимая для кэширования К, теперь разделена на 
две части для кэширования отношений К; и К. . Размеры этих частей яв- 


ляются параметрами кластеризации. 

Вывод оценочного критерия. Для получения критерия, который оцени- 
вает вероятность кэш-попадания для кэширования исходного отношения и 
его проекций, ведём следующие обозначения: 


О = [м] — матрица вероятностей использования атрибутов отно- 
шения А; 

М - число кортежей отношений А, К, К,; 

М - число атрибутов отношения А; 

р, - вероятность того, что к СУБД обращается ЁйЙ запрос, 
в О 

А, А - подмножества атрибутов, которые востребованы Ёым 
запросом; 

Л, — длина }-го атрибута отношения АР, /= 152....,М; 


1, 1, [> -— длины кортежей соответствующих отношений А, К, 
в: 


7 27 


у Ра ' Ра — размеры частей кэш-памяти, отведенных для кэширования 
отношений А, К,, А, , где Сы + Г» = Гв; 
№, №, № - количества позиций кэш-памяти, где хранятся 


кортежи соответствующих отношений А, А, К,; 


оператор [|] - оператор получения целой части вещественного 
числа. 
Вероятность кэш-попадания для кэширования исходного отноше- 
ния. Обращение к кэш-памяти будет успешным (кэш-попадание) только в 


том случае, если востребованный кортеж является одним из М, кортежей, 


копия которых уже присутствуют в кэше. Так как выборы кортежей подчи- 
няются равномерному закону и не зависят друг от друга, то вероятность 
кэш-попадания одна и та же для каждого запроса и равна: 


М№ 
Р, = т (2) 
Г Г 
где №, = п №, — = ша М, —_ 
р, 1 
ла, А 


Вероятность кэш-попадания для кэширования проекций-отноше- 
ний. Обозначим случаи, когда ИСХОДНЫЙ запрос заменен по первому, вто- 


рому, третьему вариантам событиями С, С,, С, соответственно; случай, 


129 


Вестник ДГТУ, 2008. 1.8. №4(39) 








когда поиск исходного требуемого кортежа в кэше завершается успешно 
событием В. Согласно формуле полной вероятности вероятность кэш-по- 


падания оценивается как: 
3 


Вв= (Р(ВИС,) РС]. (3) 


У=1 


Для у=1 исходный запрос (К,Л,Ш] заменяется запросом 


(^,4 2). Поэтому поиск кортежа, определяемого двойкой (К, 10), 
завершится успешно тогда и только тогда, когда поиск кортежа, определя- 
емого двойкой (К, Ш], завершится успешно. Аналогично случаю, 
рассмотренному в (2), имеем следующее выражение: 


М 
РВС = и (4) 
Г Г 
где №» = па №, — = ша М, — 
В1 й 
Ул:а 4 


И 


Из условия замены исходного запроса очевидно следующее выра- 
жение: 


Р(С,] = р 
| УПА, А | (5) 
Для и = 2, аналогично предыдущему обсуждению, получим: 
№ 
Р(В!С,) = у, (6) 
Г 
где №», = па №, — = па М, — - 
82 р 
и 45 
Р(С,] = р 
Е А, А " (7) 


В случае у=3 исходный запрос (А,Л,Ш2} заменяется двумя 
запросами (№,4 А.) и (^,,1 (А. \К) р] одновременно, и 
поиск кортежа (К, /2) завершится успешно тогда и только тогда, когда 
оба поиска кортежей (К, 02] и (К,, 2) завершатся успешно одновре- 
менно. Таким образом, верно следующее: 


РВИС,) = Р(Вы} Р(В,.) = ^ 


1 


м М 


№ 


&2, 
' 
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ВЫ ет" 2. (8) 


Из свойства полной группы вероятность наступления события Сз 
вычисляется как: 


Р(В/С,] 


РС] =1-Р(С]- Р(С,]. (9) 
В итоге вероятность кэш-попадания в случае кэширования проек- 
ций-отношений выглядит следующим образом: 


№ М> М М> 














Вик, = т Р(С!]+ Р(С2)+ № РС (10) 
Обозначим: 
_ Р(С,). те Р(С,]. _ Р(С,] 
а= $ Е > Аб = 
№ М М 
Формулу (9) можно переписать следующим образом: 
Рук, = а Ми+Ь Мы+с Мы Мь. (11) 


Целевая функция для поиска наилучшей схемы кластеризации от- 
ношений. Для проведения кластеризации необходимо решить следующую 
задачу (будем называть задачей (*)): 

Пусть даны: множество атрибутов А, количество кортежей №, 


матрица (/ , длины атрибутов р и размер кэш-памяти Г». 


Найти наилучшую схему для проведения кластеризации данного от- 
ношения. 

Любая схема кластеризации полностью идентифицируется четырь- 
мя параметрами .4,.4,,№„,М№,>. Качество схем будем оценивать форму- 
лой (11). Чем больше значение оценочного критерия (11), тем выше произ- 
водительность кэш-системы. Поэтому наилучшая схема кластеризации яв- 
ляется решением задачи дискретного программирования (в дальнейшем 
будем называть ее задачей (**)): 


Р(А, А, № М2] = а Мы+Ь М, +с Мы М, Э тах. (12) 








1? 
С ограничениями: 
А= 4 АА-А, К, А|> К]; (13) 
МН М» р Гв; (14) 
№: 0, №, 0; (15) 
Ми, М»› — целые. (16) 


Так как предлагаемый оценочный критерий не трудоемок для вы- 
числения, задача (**) может быть решена с помощью алгоритма полного 
перебора для входных данных с небольшой размерностью. При больших 
значениях величины М и интервалов варьирования Л», №, необходи- 
мо разработать более эффективный алгоритм. 

Алгоритм поиска наилучшей схемы полным перебором. Задачу 
дискретного программирования (**) можно решить методом полного 
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перебора [5]. Сначала перебираем все допустимые пары (А, 4,) по усло- 
вию (13), потом для каждого из найденных вариантов перебираем все до- 
пустимые пары (ММ, по условиям (14), (15) и (16). Заметим, что при 


фиксации значения А, что следует из условия (13), значение 4, автома- 
М-К К 
тически фиксируется. По (13) имеем [2 ый 1 допустимых пар значений 


(А,А,). При фиксации значения №, значение М, , которое обеспечи- 
вает максимум целевой функции (12), должно быть определено выражением 


р - Ми 
№ = ша М, — Ам 
[ 
: Г 
Значит после фиксации пары (4,4) имеем шт М, — +1 
1 


допустимых пар (№ А ты ‚ потенциально обеспечивающих максимум (4). 
Таким образом, алгоритм полного перебора должен реализовать не менее 


р Г, 
т ь 6 | шт М, = +1 вычислений формулы (12). 


К 


Например, рассмотрим отношение А с шестью атрибутами, где а, 
- ключевой атрибут. Длины атрибутов - 30, 37, 51, 21, 46, 11 (байт). Матри- 
ца вероятностей использования атрибутов (табл.2). 
Таблица 2 
Пример матрицы вероятностей использования атрибутов 


Атрибуты 
Запросы а а а: а. а 





Размер кэш-памяти, выделенной для данного отношения, равен 
2000 (байт). Число кортежей равно 200. 
Для этого примера наилучшая схема кластеров: 


А, = {а»а, аа}, А, = аьа»а,}, Мы = 16, М№,=0. 
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С этой схемой вероятность кэш-попадания, рассчитанная по форму- 
ле (12), равна 0.06448, и она возросла на 1.29 (раз) относительно случаю 
без кластеризации, вероятность кэш-попадания при котором равна 0.05. 
Программное моделирование предложенного метода кластериза- 
ции. Испытание достоверности предлагаемого оценочного критерия было 
выполнено с помощью программного моделирования. Данное программное 
средство реализовано на Вер!!! и предоставляет следующие возможности: 

- генерировать случайные длины атрибутов рассматриваемого от- 
ношения и матрицу вероятностей их использования; 

- решить задачу (**) полным перебором; 

- генерировать случайные потоки запросов, соответствующие гене- 
рированной матрице вероятностей использования атрибутов; 

- моделировать работу кэш-системы с возможностью выбора той 
или иной стратегии замещения (было реализовано 4 стратегий: рандомиза- 
ция, Соск, 1ВУ и ЕРИ [6]); 

- моделировать системы кластеризации отношений, как описано 
выше; 

- вычислить средние значения экспериментальных кэш-попаданий и 
их дисперсию. 

Для каждого набора входных данных для задачи (*) производили 
поиск наилучшей схемы алгоритмом полного перебора. Статистическим мо- 
делированием были получены производительности кэш-системы при 1000 
потоках запросов, длина каждого потока равна 5000 запросов. Во всех этих 
случаях относительная ошибка экспериментального среднего от теоретиче- 
ского значения по формуле (13) составила менее 2.5%. При моделирова- 
нии других стратегий был получен аналогичный результат. 
Эвристический алгоритм, аппроксимирующий решения задачи 
(**). Исследуя свойства решений задачи (**), полученных алгоритмом 
полного перебора, было замечено, что почти во всех случаях либо 


ур 7Й 
№, = ша №, — , либо К, = шт М, — ‚т.е. почти вся часть кэш- 
1 &2 
памяти, отведенная для исходного отношения, передается на кэширование 
только одной из проекций-отношений. Из данного факта мы предполагаем 


кэшировать только отношение К, из схемы кластеризации, а другое отно- 


шение совсем не кэшируем. Таким образом, будем аппроксимировать реше- 
ние задачи (**) решением задачи (***): 


Г, 
РА АМ, М] а М = р, =: > тах. (17) 
УД, СА. 7 
Ула; 4 
С ограничениями: 


А= 4 АА=А, К, |4] > [К]; (18) 
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| 


К 


№, = шш М, — ; (19) 


И 
№. =0. (20) 
Эвристический алгоритм находит множество „/ путём последова- 
тельного отбора его атрибутов. Вначале = А. На каждой итерации бу- 
дет удален из подмножества А, атрибут а; К с длиной [,, оценка при- 


надлежности к подмножеству А которого принимает наименьшее значе- 
ние. Эта оценка вычисляется по формуле: 


ЕЯ 


После удаления атрибута @, будут обнуляться все элементы 1-й 


строки матрицы И, где и, > 0. На данной же итерации из множества А 


удаляются также все атрибуты а, 4 (а, К ‚ где Рут 0. Полу- 


Упа. А, 
и: 1 


ченное при данной итерации разбиение [А А\А) К] является одним 
из интересуемых вариантов разбиения. Итерационный процесс повторяется 
до тех пор, пока |4. > |]. Вычисляется оценочный критерий (17) для раз- 


биения (А,К) и для всех разбиений, полученных во всех итерациях. Наи- 
лучшая схема разбиения из них является решением задачи (***). 
Таким образом, данный алгоритм реализует не более (|4 |+ 1 


итераций, поэтому он во много раз эффективнее, чем алгоритм полного 
перебора. 

Для анализа эффективности эвристического алгоритма к разрабо- 
танному программному средству был добавлен модуль, который его реали- 
зует. С помощью полученной программы было произведено 5000 экспери- 
ментов. В каждом эксперименте были сгенерированы входные данные за- 
дачи (*). Затем решена задача (*) с помощью алгоритма полного перебора 
и эвристического алгоритма. Анализ результатов показывает, что эвристи- 
ческий алгоритм даёт одну и ту же схему кластеризации, что и алгоритм 
полного перебора в более чем 90% экспериментов. Для класса эвристиче- 
ских алгоритмов [7] такой процент совпадений решений, на наш взгляд, 
является достаточно приемлемым. 

Выводы. В данной работе получена целевая функция для вертикальной 
кластеризации с новым оценочным критерием -— вероятность кэш-попада- 
ния, а также выполнено испытание достоверности полученной формулы с 
помощью программного моделирования. Ее простота и высокая точность 
подтверждают перспективность предложенного метода вертикальной кла- 
стеризации отношений при проектировании и реконструкции баз данных с 


134 


Раздел «Управление, вычислительная техника и информатика» 








целью повышения системной производительности. Кроме того, разработан 
эвристический алгоритм, аппроксимирующий решение задачи поиска наи- 
лучшей схемы кластеризации. Его эффективность и точность позволяют су- 
щественно сократить время проведения кластеризации. 
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